tcodehuber
Amoro Contributor
个人介绍:我来自多点 DMALL 大数据平台团队,Amoro & JuiceFS contributor,主要负责数据技术架构和平台工具建设,在司内推动了大数据云原生改造,现阶段重心偏向湖仓一体架构。
社区经历:在推进大数据云原生改造期间,我们采用了非常多成熟的开源技术,如 JuiceFS、Volcano、Kyuubi 等,也会经常将实践中发现的问题以 Issue 反馈或 PR 形式提交。近期探索湖仓一体过程中,遇到最大难点就是如何对 Iceberg 表进行维护管理,当发现 Amoro 完全匹配内部需求场景后欣喜若狂,所以想把很多原本自己打算做的功能可以借助社区的力量不断打磨完善。在 mentor 王涛的悉心指导下,逐渐深入参与了社区相关功能的开发,也希望后期可以参与更多 Feature 的贡献工作。
社区寄语:希望 Amoro 有一天也能成为 Apache 顶级项目,也必将成为网易出品的另一个明星项目,因为我坚信“网易出品,必属精品”。在 Amoro 社区,能真切感受到 “Community Over Code” 的社区理念。我也建议能有越来越多的人加入这个大家庭,因为我们不仅仅是开源的受益者,我们更要争做开源的贡献者,共建共享,良性循环。
Mentor:来自微策略的刘为民(Github ID: minteliuwm)从2023年8月开始参与 Amoro 社区的贡献,距今已经贡献了7个PR(Pull Request),在11月份的贡献活动中独立实现了表上 Tag&Branch 展示的前端部分。同时作为 Amoro 社区的前端担当,还主动推进了前端项目的文档补全,架构优化等工作。
minteliuwm
Amoro Contributor
02
试用用户反馈
为了更好满足业务数据分析的诉求,网易游戏(互娱)数据团队基于 Iceberg 对存量 Hive 架构在分析时效、存储成本等方面进行优化,开发了湖仓一体化的数据开发平台,面向实时和离线分析以及海量存储场景提供高性价比的存算服务。在底层对于湖表优化及元数据管理方面,充分调研后选用 Amoro,通过参与 Amoro 社区开发以及二次封装等方式,构建了满足互娱业务需求的数据湖平台,提供包括但不限于 Catalog 管理、湖表自动优化、资源管理、指标监控等能力。同时,互娱大力参与社区功能如指标监控、Prometheus 对接等功能的推进。目前线上接入的湖表数量 3000+,业务还在快速增长中。
上海汇付支付有限公司:
汇付支付原先 CDC 数据是写入 Hologress,然后支持后续业务。但是 Hologress 价格昂贵,且和云厂商绑定,所以希望引入数据湖技术替换 Hologress 以达到降本增效的目的。由于 Paimon 在流式入湖,增量读取,partial-update 等方面的优势,最终选择 Paimon 作为数据湖底座。并且引入 Amoro 解决 Paimon 表的管理,元数据信息查看,compaction 信息查看等问题。
赛美特:
在国产替代和降本提效的背景下,赛美特通过引入数据湖技术替代原有的商业化数仓。通过 Flink + Iceberg + Trino 构建了基于开源技术的数据湖平台,通过 Amoro 提供生产级的 Iceberg 表的运维管理能力,降低人工调度批任务对大量 Iceberg 表进行文件合并、数据过期的维护成本,成功替代原有国外某商业化数仓2000+表。此外在对接测试过程中,赛美特还发现了 Amoro 在 Optimizing 过程中清理 Equality Delete 文件的优化空间,帮助 Amoro 更好的处理文件清理的过程。
欢迎试用与贡献
试用与贡献活动今年就暂时告一段落,感谢几个月以来积极参与社区活动的小伙伴们。社区一直欢迎各种形式的贡献,也鼓励大家试用后向我们反馈,帮助 Amoro 走得更远。
社区里的每一份力量都很重要,加入 Amoro 社群请添加 “kllnn999”(Amoro 小助手),欢迎你一起来为社区添砖加瓦~